智能论文笔记

来自文件的信息提取（即）是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档，其中包含计算机视觉，自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用（即本机PDF文件）。我们在三个现实世界复杂数据集上的实验表明，使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集，这种嵌入在加权F1分数中提高0.18％至2.29％，在模型的最终培训参数中减少30.7％，从而提高了效率和有效性。

translated by 谷歌翻译

A New Amharic Speech Emotion Dataset and Classification Benchmark

Ephrem A. Retta , Eiad Almekhlafi , Richard Sutcliffe , Mustafa Mhamed , Haider Ali , Jun Feng

分类：自然语言处理

2022-01-07

在本文中，我们介绍了Amharic语音情绪数据集（亚胺），涵盖了四条方言（Gojjam，Wollo，Shewa和Londer）和五种不同的情绪（中性，恐惧，快乐，悲伤和生气）。我们认为它是Amharic语言的第一个语音情感认可（Ser）数据集。 65志愿者参与者，所有母语人员，记录2,474个声音样本，长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本（Fleiss Kappa = 0.8）。生成的数据集可免费下载。接下来，我们开发了一个四层变体，我们称之为vggb。然后使用vggb进行三种实验，用于Ser，使用ASED。首先，我们研究了熔融谱图特征或熔融频率谱系数（MFCC）的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的，使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训，标准交叉验证和三种变体，基于句子，方言和扬声器组。因此，用于训练的句子不会用于测试，以及方言和扬声器组的句子。结论是，在所有四种训练方案下，MFCC功能都是优越的。因此，MFCC采用实验2，其中VGGB和其他三种现有模型进行了验证：Resnet50，Alex-Net和LSTM。 vggb被发现具有非常好的准确性（90.73％）以及最快的培训时间。在实验3中，在培训在两个现有的SER数据集，RAVDES（英语）和EMO-DB（德语）以及ASED（Amharic）上进行培训时比较VGGB的性能。结果与这些语言相当，仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。

translated by 谷歌翻译